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系 所 处 环境 的 重要 线索 忆 3. 这 种 关联 有 助 于 我 们 
解 星系 内 部 物质 的 分 布 和 演化 过 程 . 最 后 , 通过 
究 不 同类 别 的 星系 在 宇宙 中 的 分 布 和 聚集 程度 ， 
我 们 可 以 揭示 宇宙 的 网 状 结构 、 星 系 团 和 超星 系 
团 等 大 尺度 组 织 形式 向 . 这 对 于 理解 宇宙 的 演化 等 
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基本 物理 问题 具有 重要 意义 . 因此 , 将 星系 按照 形 
态 特 征 进 行 准确 分 类 是 后 续 数据 分 析 和 挖掘 的 基 
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星系 的 形态 可 以 根据 不 同 的 分 类 标准 进行 划 
ay. 其 中 , 哈 勃 于 1926 年 提出 的 哈 勃 序列 (Hubble 
sequence) 是 最 著名 的 早期 星系 形态 分 类 标准 之 一 . 
哈 动 序列 与 中 性 氧 的 质量 、 星 系 的 积分 颜色 、 星 
系 光度 和 环境 等 物理 参数 密切 相关 , 至 今 仍 
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确 率 分 别 达 到 94.7%、96.5%% 和 89.9%. He 等 (9 基于 
层 (49 个 卷 积 层 和 1 个 全 连接 层 ) 的 ResNet-5 
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重要 的 参考 价值 . 2007 年 推出 的 星系 动物 园 蕊 
(Galaxy Zoo, GZ 回 ) 采 用 的 星系 形态 分 类 标准 就 
基于 哈 勃 序列 , 该 项 目 通过 广泛 的 众 包 志愿 者 
与 , 以 哈 勃 序列 为 基础 对 星系 的 形态 进行 分 类 ， 
愿 者 们 根据 星系 的 结构 特征 、 旋 臂 存 在 与 否 、 
纹 形 状 等 属性 , 将 星系 分 为 不 同 的 类 别 . 哈 勃 序列 
作为 一 种 经 典 的 星系 形态 分 类 标准 , 对 于 研究 星系 
的 演化 和 形成 过 程 仍然 具有 重要 的 意义 . 

近年 来 , 天 文 观 测 设备 的 巡天 深度 和 探测 效率 
不 断 提升 , 斯 隆 数 字 巡 天 (Sloan Digital Sky Survey, 
SDSSI6)、 郭 守 敬 望远镜 (The Large Sky Area Mul- 
ti-Object Fibre Spectroscopic Telescope, LAM- 
OSTID) 等 巡天 项 目 和 和 俯 姆 斯 .韦伯 空间 望远镜 
(James Webb Space Telescope, JWSTISI) 等 红外 线 
太空 望远镜 观测 产生 了 海量 的 星系 光谱 数据 和 图 
像 数据 , 因此 迫切 需要 寻求 更 加 自动 化 和 智能 化 的 
分 类 方法 以 满足 大 规模 的 星系 图 像 数据 处 理 需 求 . 
随 着 深度 学 习 技术 的 不 断 发 展 , 深度 学 习 相关 算法 
被 广泛 应 用 于 天 文 领 域 , 其 中 基于 深度 学 习 算 法 的 
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CCN) 模 型 进 
用 多 分 支 结构 来 提取 星系 
并 在 Galaxy Zoo 2 这 一 数据 集 上 进行 训练 和 测试 ， 


实验 结果 表明 该 模型 在 宏观 平均 下 达到 97% 的 准 


ResNet-Core, 分 别针 对 光谱 柜 
点 , 通过 加 入 卷 积 核 方差 控 
节 特 征 , 有 效 提 高 了 平均 精度 , 超过 了 当时 最 高 
性 能 的 ResNet-50, 结果 表明 ResNet-Core 模 型 具有 
和 更 好 的 鲁 棒 性 . Hui 等 上 9 提出 
将 稠密 卷 积 网 络 (Densely connected convolutional 
Networks, DenseNet) 
中 , 实验 结果 显示 , 使 用 
和 1 个 全 连接 层 ) 的 DenseNet- 
度 为 91.79%, 也 就 
准确 分 类 HH 
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具有 121 层 (120 个 卷 积 层 
121 模 型 得 到 的 准确 
在 3044 张 测试 图 像 中 ,能够 
如 像 ; 另外 , 模型 的 精确 度 
为 79.92%、 召 回 率 为 73.20%、F1 分 数 (F1l-Score) 为 
上 了 一 个 多 尺度 卷 积 胶 吉 网 络 
(Multi-Scale Convolution Capsule Network, MS- 


星系 形态 分 类 研究 就 是 研究 热点 之 一 . Zhu ell $e 
出 了 基于 深度 残 差 网 络 (Residual network, ResNet) 
的 改进 模型 , 模型 名 为 ResNet-26, 即 具有 26 层 (25 
个 卷 积 层 和 1 个 全 连接 层 ), 该 模型 实现 了 对 星系 
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行星 系 形 


2021 年 开始 , 深度 学 习 中 的 Transformer 模 型 
通过 引入 自 注 意 力 机 制 , 实现 了 对 序列 数据 的 全 


乡 态 特征 的 自动 提取 、 识 别 和 分 类 . 实验 结果 表 
IH: ResNet-26 模 型 的 分 类 精度 达到 了 95.12%, 与 其 
他 流行 的 卷 积 神经 网 络 (Convolutional Neural Net- 
work, CNN) 模 型 相 比 具有 更 好 的 分 类 性 能 . SC RR ME 


HR. 96% HE HA 


[ 完 ， 该 模型 通过 使 
于 像 的 多 斥 度 隐藏 特征 ， 


率 、98%% 的 召回 率 和 97% 的 F1 分 


局 上 下 文 建 模 , 并 且 在 自然 语言 处 理 (Natural Lan- 
guage Processing, NLP) 中 取得 了 巨大 的 成 功 . 同 
时 Google 团 队 开发 出 了 一 种 新 的 图 像 分 类 架构 ， 


称 为 Vision Transformer (ViT)!!5). ViT 模 型 发 布 至 
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今 已 经 被 广泛 运用 于 各 个 领域 的 分 类 任务 , Ghe- 
flati 等 nd 将 ViT 模 型 应 用 于 医学 领域 , 对 乳腺 超声 
图 像 进行 分 类 , 结果 表明 ViT 模 型 对 于 乳腺 超声 图 
像 的 分 类 效果 比 CNN 模 型 更 好 . Gao A VT 
型 参与 了 人 工 智能 医学 图 像 分 析 COVID-19 诊 断 竞 
赛 挑战 , 根据 计算 机 断层 扫描 (Computed Tomog- 


基于 FPN-ViT 的 星系 


lz 态 分 类 研究 


E, 有 利于 密集 预测 任务 . Wu 等 外 提出 卷 积 视 
觉 Transformer (Convolutional vision Transformer， 
CvT), 将 卷 积 引入 到 ViT 模 型 , 以 提高 VT 模型 的 
性 能 . CvT 模 型 在 公开 数据 集 ImageNet-1k 上 获得 
了 87.7% 的 Top-1 准 确 率 (表示 模型 的 第 1 个 预测 是 
否 与 实际 标签 相符 的 比例 , 是 最 常用 的 分 类 性 能 指 


raphy，CT) 技 术 得 到 的 肺 部 CT 图 像 将 新 冠 肺炎 与 
非 新 冠 肺炎 进行 分 类 , ViT 模 型 的 结果 优 于 同期 参 
赛 的 DenseNet 模 型 ，F1 分 数 为 0.76. Tanzi 等 由 采 
ViT 体 系 结构 对 不 同 骨 折 类 型 图 像 进行 分 类 , 并 
与 经 典 CNN 和 由 连续 CNN 组 成 的 多 级 结构 进行 了 
比较 , 结果 显示 ViT 模 型 能 够 正确 预测 83% 的 测试 
图 像 , 性 能 优 于 CNN 模 型 . 

在 Vision Transformer 发 布 之 后 , 许多 研究 者 
对 模型 进行 了 改进 . 例如 : Chu 等 外 提出 一 种 条 件 
位 置 编码 视觉 Transformer (Conditional Position 
encodings Visual Transformer, CPVT) 结 构 , 使 用 
条 件 位 置 编码 (Conditional Position Encodings, 
CPER ViIT#H A HE Mit Bik A, 使 Transfor- 
mers 能 够 处 理 任意 大 小 的 图 像 且 无 需 插 值 . Han 
等 Bo 提出 Transformer-iN-Transformer (TNT) 模 型 ， 
该 模型 利用 处 理 图 像 块 嵌入 的 外 部 Transformer 模 
块 和 对 像素 嵌入 之 间 的 关系 进行 建 模 的 内 部 Trans- 
former 模 块 来 对 补丁 级 和 像素 级 表示 进行 建 模 . 
Yuan? $214 'Tokens-To-Token (IT2T) 模 型 , Æ 
要 通过 将 滑动 窗口 内 的 多 个 token 连 接 成 一 个 token 
来 改进 ViT 模 型 Wang 等 3 提出 了 Pyramid Vi- 
sion Transformer (PVT) 模 型 , 它 为 Transformer 采 


了 多 级 设计 (没有 卷 积 ), 类 似 于 CNN 中 的 多 尺 
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法 整体 框架 


标 ), 超过 了 ViT 模 型 在 该 数据 集 上 76 包 的 准确 率 . 
基于 上 述 对 ViT 模 型 的 改进 方法 , 本 文 提出 将 
正 金字 塔 网 络 (Feature Pyramid Networks, FP- 
N) 引 入 ViT 模 型 , 以 提高 模型 的 性 能 . 本 文 的 组 织 
结构 如 下 : 首先 讨论 了 FPN 和 传统 的 ViT 网 络 结构 ， 
并 在 第 2 节 介 绍 了 将 FPN 引 入 ViT 之 后 组 成 的 FPN- 
ViT 网 络 架 构 基 本 框架 和 原理 ; 在 第 3 节 中 , 我 们 介 
绍 了 本 次 实验 所 使 用 到 的 数据 集 , 此 外 我 们 还 对 样 
本 中 数量 较 少 的 类 别 进行 了 数据 增强 ; 在 第 4 节 中 ， 
对 基于 FPN-ViT 模 型 得 到 的 分 类 结果 进行 分 析 和 
讨论 , 并 与 其 他 类 似 的 工作 进行 了 比较 . 同时 , 我 们 
还 对 FPN-ViT 模 型 的 分 类 结果 进行 了 可 视 化 分 析 ; 
最 后 , 我 们 在 第 5 节 中 对 本 工作 进行 了 总 结 . 


2 方法 
本 文 提 出 了 一 种 将 FPN 引 入 ViT 模 型 以 进行 
系 图 像 分 类 的 方法 . 传统 的 ViT 模 型 在 处 理 多 尺 
图 像 时 存在 一 定 的 局 限 性 , 因为 它们 只 能 处 理 臣 
图 像 . 特征 金字 塔 是 一 种 多 尺度 特征 
表示 的 方法 , 它 通过 在 不 同 层级 的 卷 积 特征 图 上 应 
用 不 同 尺 度 的 滤波 器 来 捕捉 图 像 中 的 局 部 和 全 局 
言 息 . 我 们 将 FPN 与 ViT 模 型 相 结 合 , 以 提高 ViT 模 
型 的 性 能 . 其 整体 结构 如 图 1 所 示 . 
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2.1 ”特征 金字 塔 网 络 (FPN) 邻 较 浅 层 的 特征 图 进行 逐 元 素 相 加 (element-wise 
特征 金字 塔 网 络 (FPN) 是 Lin 等 人 在 2017 年 提 addition). 这 样 做 可 以 将 细节 特征 与 上 下 文 特征 进 


出 的 多 尺度 特征 提取 器 9. FPN 通 过 在 网 络 中 添 行 融合 , 得 到 多 尺度 的 特征 金字 塔 ; 

加 横向 连接 和 上 采样 操作 , 将 来 自 不 同 层级 的 特 (6) 重 复 : 重复 步骤 (4) 和 步骤 (5), 直到 达到 最 
征 图 进行 融合 , 构建 出 金字 塔 结构 的 特征 表示 . 具 顶层 的 特征 图 ; 

体 来 说 , FPN 在 底层 特征 图 上 进行 上 采样 操作 , 使 (7) 输 出 : 最 终 得 到 的 特征 金字 塔 可 以 用 于 目 


其 与 高 层 特 征 图 的 尺寸 相 匹配 , 然后 将 它们 进行 。” 标 检 测 、 语 义 分 割 等 任务 . 在 目标 检测 任务 中 , 通 
逐 元 素 相 加 , 得 到 融合 后 的 特征 图 . 通过 这 样 的 操 。” ”常会 使 用 额外 的 网 络 层 来 预测 目标 的 位 置 和 类 别 . 
作 , FPN 在 保留 高 层 特征 的 上 下 文 信息 的 同时 , 还 输入 图 像 在 FPN 中 的 每 层 特征 图 及 最 终 输 出 
能 够 有 效 地 利用 底层 特征 的 细节 信息 . FPN 的 结构 的 特征 图 像 示 例如 图 3 所 示 , 其 中 Level 1 到 Level 4 
如 图 2 所 示 , 其 中 Conv2d 是 二 维 卷 积 操作 , 1 x 1 表 ”对 应 的 是 FPN 架 构 不 同 深度 卷 积 神经 网 络 层 所 产 
示 卷 积 核 大 小 为 1 像素 高 和 1 像素 宽 , 3 x 3 则 表示 卷 。 ”本 的 特征 图 , 最 后 这 些 特征 图 会 通过 上 采样 和 融合 
积 核 大 小 为 3 像素 高 和 3 像素 宽 , sl 表示 卷 积 操作 的 。 操作 生成 融合 后 的 特征 图 (Merged Feature Map). 
步 长 (stride) 为 1, 112、96 等 数字 指 的 是 特征 图 的 尺 
寸 和 通道 数 . 
FPN 结 构 的 具体 计算 步骤 如 下 . 
(1) 输 入 : 以 图 像 作为 输入 ; ena 
(2) 特 征 提取 : 利用 CNN 进 行 特征 提取 , 在 CNN 
中 选择 适当 的 层级 作为 特征 提取 的 起 始点 , 通常 选 


Conv2d 
1x1, s1 3x3, s1 
Upsample 
择 较 深 的 层级 , 这 些 层 级 的 特征 图 具有 较 大 的 感受 a ER 


BF, 但 分 辩 率 较 低 ; 1x1, s1 3x3, s1 
(3) 顶 层 特征 : 从 特征 提取 的 最 深层 级 开始 , 应 56,192 
] 一 个 1 x 1 卷 积 (或 者 称 为 逐 点 卷 积 ), 生成 具有 较 a5 == 
1x1, s1 


少 通道 数 的 特征 图 . 这 个 过 程 旨 在 减少 计算 量 , 并 3x3, 51 


为 之 后 的 操作 做 准备 
(4) 上 采样 : 对 于 比 顶 层 特征 分 辨 率 更 低 的 特 | 
3x3, s1 


Input Output 


224,3 


28,384 


Conv2d 


征 图 , 通过 上 采样 操作 将 其 尺寸 放大 , 使 其 与 上 一 


1x1, s1 
层 特 征 图 的 尺寸 相 匹 配 . 常见 的 上 采样 方法 包括 双 14,768 
线性 插值 和 反 卷 积 ; 图 2 ”特征 金字 塔 网 络 架构 图 
(5) 融 合 : 将 E= 步 得 到 的 EX FE 特 征 B 与 相 Fig.2 Feature pyramid network architecture 


Original Image Level 1 Level 2 Level 3 Level 4 Merged Feature Map 


3 ”特征 金字 塔 网 络 输出 特征 图 像 示例 图 


Fig.3 Example image of feature pyramid network output feature image 
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2.2 Vision Transformer 

2017 年 Google 的 机 器 翻译 团队 在 神经 信息 处 
里 系统 大 会 (Conference and Workshop on Neu- 
ral Information Processing Systems, NIPS) 上 发 表 
了 Attention is all you need 的 文章 , 开创 性 地 提出 


eae: 基于 FPN-ViT 的 星系 


lz 态 分 类 研究 


络 (Recursive Neural Network, RNN) 模 型 , 只 依赖 
注意 力 (Attention) 结 构 的 简单 网 络 架 构 , 并 命名 
为 Transformer25].，2021 年 ， 受 Transformer 在 自然 
语言 处 理 领 域 中 取得 巨大 成 功 的 启发 , Google 团 队 
发 出 了 一 种 新 的 图 像 分 类 架构 , 并 命名 为 ViTD5， 


了 在 序列 转录 领域 , 完全 握 弃 了 CNN 和 循环 神经 网 


Class 


MLP Head 


Transformer Encoder 


I 


基本 结构 如 图 4 所 示 . 


x 
~ 


Patch+Position Embedding 
nable [CLS] embeddin Loe 


* Extra lea: 


Fig.4 Structure of Vision Transformer (ViT 


ViT 模 型 输入 图 片 首先 被 切 分 成 固定 尺寸 的 图 
BIR, 之 后 对 展 平 的 图 像 块 进行 线性 映射 (通过 算 
阵 乘 法 对 维度 进行 变换 ). 为 了 保留 每 个 图 像 块 的 
位 置信 息 , 在 图 像 块 送 入 Transformer 编 码 器 之 前 ， 


bf ho oh ht 


Linear Projection of Flattened Patches 


Bi cesecenes 


图 4 Vision Transformer (ViT) 模 型 结构 


Transformer Encoder 


Embedded Patches 


model 


维度 , N = HW/P 是 输入 Transformer 编 码 器 的 图 
像 块 的 序列 长 度 . 

Transformer 编 码 器 由 7 个 标准 的 Transformer 
模块 组 成 , 每 个 模块 由 层 归 一 化 (Layer Normal- 


对 每 个 图 像 块 加 入 了 位 置 编 码 . 具体 计算 公式 如 ization, LN)、 多 头 自 注 意 力 模块 (Multi-head Self- 

F: Attention, MSA)、 多 层 感知 机 (multilayer percep- 

tron，MLP) 及 残 差 连接 (Residual Connection, R- 

和 一 Faaesi pHi ap Bs + ;zp E] + Epos, C) 等 构成 . 具体 计算 过 程 如 下 所 示 : 
EERO OX? kipe RUR (1) 

SWANG )) ea Tad... 0) 

FLA, zyx X Transformer Encoder 的 输入 ， = MLP(LN(z)) +2), l=1---L, (3) 

-us 是 对 输入 图 像 E R#xwxe (其 中 万 和 全 分 = LN(28) (4) 
别 是 图 像 的 长 度 和 宽度 , C 是 图 像 的 通道 数 ) 进 行 序 á a 

列 化 时 添加 的 一 个 [CLS] 标 记 , 用 来 累积 并 包含 整 其 中 ,4 是 输入 到 Transformer Encoder 中 的 图 像 

个 序列 的 信息 . cili = 1.… 入 ) 是 输入 的 第 i 个 图 像 块 序列 , l 是 循环 的 次 数 . z' 是 应 用 多 头 自 注意 力 


块 patch, 马 是 线性 投影 层 Linear Projection, Bpos 是 
位 置 编码 , P 是 每 个 图 像 块 的 分 辩 率 , DD 是 图 像 块 的 


(MSA) 模 块 和 残 差 连接 后 的 中 间 表 示 . 对 前 一 层 
的 输出 z_1 进 行 层 归 一 化 操作 , 然后 通过 多 头 自 


65 4 天 
注意 力 (MSA) 模 块 , 得 到 zz/ 4 是 应 用 多 层 感知 机 


(MLP) 模 块 和 第 2 个 残 差 连接 后 的 表示 . 在 得 到 zi 
后 , 它 再 次 经 过 层 归 一 化 , MLP 模 块 和 残 差 连接 ， 
从 而 得 到 z. 交 是 五 次 Transformer Encoder 循 环 结 
束 之 后 , 最 后 一 层 输 出 的 图 像 块 序列 并 中 第 1 个 位 
置 上 的 [CLS] 标 记 , y 是 Transformer Encoder 最 终 的 
输出 结果 . 
此 外 , 该 模型 需要 注意 的 是 只 有 在 大 规模 数据 
上 进行 预 训练 再 迁移 到 中 小 规模 数据 集 的 条 件 
F, VT 才能 够 取得 与 当时 最 新 卷 积 结构 相 媲 美的 
性 能 . 
3 数据 
3.1 ”数据 集 简介 

本 文采 用 的 数据 集 是 星系 动物 园 226] (Galaxy 
Zoo 2, GZ2), 该 数据 集 是 基于 星系 动物 园 项 目 这 个 
大 规模 志愿 者 分 类 工作 而 创建 的 , 并 采用 了 其 提供 
的 数据 和 分 类 标准 . 星系 动物 园 项 目 源 自 Kaggle 平 
台 上 举办 的 Galaxy Zoo-the Galaxy Challenge 比 
赛 , 是 一 个 众 包 协作 的 天 文学 项 目 , 旨 在 通过 志愿 
者 的 分 类 工作 来 研究 和 理解 星系 的 形态 和 演化 . 

该 比赛 的 训练 集 包 含 了 来 自 斯 隆 数字 化 巡 
天 数据 3DSS 发 布 的 第 7 个 版 本 数据 的 61578 张 带 有 
标签 的 星系 观测 图 片 . SDSS 的 星系 观测 数据 包括 
了 5 个 光学 波段 (u、g、r、i 和 z), 而 在 相关 研究 中 
常 使 用 前 3 个 波段 的 数据 合成 为 对 应 的 RGB 星 系 图 
像 . 每 张 图 片 的 尺寸 为 424 x 424 x 3 像素 , 且 都 有 一 
个 1 x 37 的 标签 向 量 , 这 些 标签 是 根据 GZ2 志 愿 者 
投票 分 数 的 修正 累计 频率 值得 出 的 . GZ2 对 星系 的 
E 态 进行 了 11 个 问题 和 37 个 答案 的 划分 . 参考 相关 
TD 芍 , 在 本 文中 , 我 们 选择 了 5 类 星系 数据 , 并 
将 其 应 用 于 FPN-ViT 模 型 进行 分 类 研究 , 包括 中 间 
平滑 星系 (In-between smooth galaxy), [i 
星系 (Completely round smooth galaxy). {il 


7| a 


以 下 是 这 些 规则 的 描述 : 

(1) 志 愿 者 人 数 要 求 一 对 于 每 张 星系 图 片 ， 必 
须 有 人 至少 20 个 志愿 者 对 其 进行 分 类 , 这 确保 了 每 张 
图 片 都 得 到 了 足够 多 的 分 类 意见 

(2) 累 计 投 票 分 数 修 正 值 闵 值 一 对 于 每 张 图 片 ， 
计算 得 到 的 累计 投票 分 数 修正 值 必须 满足 一 定 的 
BH, 该 修正 值 是 基于 志愿 者 对 该 图 片 的 分 类 结果 
进行 综合 得 出 的 ; 

(3) 阔 值 条 件 一 为 了 将 一 张 图 片 分 类 到 特定 
的 星系 类 别 , 必须 满足 相应 的 阔 值 条 件 . 以 旋涡 
星系 为 例 , 一 张 图 片 必须 满足 该 类 别 的 3 个 疮 值 
条 件 (一 张 图 片 被 分 类 为 有 特征 / 盘 状 结构 的 频 
率 ftoatures/qisk > 0.430, 一 张 图 片 被 分 类 为 非 侧 向 
星系 的 频率 fao。onno > 0.715, 一 张 图 片 被 分 类 为 
旋涡 星系 的 频率 fspira,yes > 0.619), 才能 被 分 类 为 
旋涡 星系 ; 

(4) 平 滑 星系 的 特殊 情况 
本 选择 规则 较为 严格 , 对 于 平滑 
中 间 星 系 和 雪茄 状 星系 )3 个 类 别 ， 
本 数目 相对 较 少 ; 

为 了 确保 获得 足够 数量 的 样本 用 于 模型 训练 
和 测试 , 本 文 适 度 放宽 了 平滑 星系 的 六 值 选取 标 
准 , 将 其 从 0.8 降 低 到 了 0.5, 而 侧 向 星系 和 旋涡 星系 
的 阐 值 选取 规则 仍 采 用 GZ2 数 据 发 布 白皮书 中 默 
UPURA, 

最 终 , 按照 上 述 规则 ，GZ2 数 据 集 选择 了 共 
计 28790 张 干净 样本 的 星系 图 片 . 这 些 干净 样本 经 
过 严格 的 选取 过 程 , 可 以 用 于 进行 星系 分 类 和 相 
关 研 究 . 图 5 为 从 干净 样本 原始 数据 集中 随机 抽取 
的 5 类 星系 图 像 示 例 . 

将 28790 张 干净 样本 按 9:1 的 比例 划分 为 训练 集 
和 测试 集 , 图 6 给 出 了 每 一 类 星系 的 训练 集 和 测试 
集中 图 像 数 目 , 可 以 看 出 5 类 星系 的 图 片 数目 满足 


i 


于 GZ2 的 干净 样 
星系 ( 圆 形 星系 、 
可 选取 的 数据 样 


系 (Edge-on galaxy)、 旋 涡 星 系 (Spiral galaxy) fl 
茄 状 平滑 星系 (Cigar-shaped smooth galaxy). 


3.2 ”样本 数据 选取 


对 G2Z2 数 据 集 进行 干净 样本 (well-sampled 
galaxies) 选 择 需 要 遵循 数据 发 布 白皮书 中 的 规则 . 
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同 分 布 同比 例 的 要 求 

此 外 , 为 了 不 同类 别 样本 数量 之 间 的 平衡 性 ， 
本 研究 将 数量 较 少 的 雪茄 状 星 系数 据 通 过 旋转 的 
方式 对 训练 集 的 数据 进行 增强 . 我 们 将 雪茄 状 星系 
的 图 像 数 据 分 别 旋转 45*、90*、120°* 和 180°, 旋转 
后 的 星系 图 像 示例 如 图 7 所 示 , 其 中 r 表 示 旋 转角 度 . 
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45 Galaxy Zoo 2 中 随机 抽取 的 星系 图 片 示 例 


Fig.5 Example images of randomly selected galaxies from Galaxy Zoo 2 


7591 


Image Number 


In-between Completely round Edge-on Spiral Cigar-shape 
Category 


416 Galaxy Zoo 2 数据 分 布 


Fig.6 Data distribution of Galaxy Zoo 2 


r45 r90 


r120 r180 


Original 


图 7 旋转 后 的 雪茄 状 星系 图 像 示例 


Fig.7 Example images of a cigar-shaped galaxy after rotation 
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4 ”基于 FPN-ViT 模 型 的 星系 形态 分 
类 结果 


4.1 ”实验 环境 

计算 基于 V100-SXM2-32GB GPU,12 vCPU 
Intel (R) Xeon (R) Platinum 8255C CPU 的 服务 
器 进行 ,编译 器 为 2021.1 版 Pycharm-professional， 
CUDA 版 本 为 11.3. 此 外 , 编程 基于 pytorch 1.11.0 
框架 采用 Python 语言 实现 , 运用 了 sklearn、 Scikit- 


image、transforms 等 python 库 . 


结果 分 析 
为 了 验证 FPN-ViT 模 型 的 分 类 性 能 , 本 


4.2 


作者 


如 


于 基础 的 FPN-ViT B/16 模 型 , 并 采用 准确 率 、 精 
确 率 、 召 回 率 以 及 F1 分 数 等 评价 指标 来 衡量 模型 


的 分 类 性 能 . 表 1 给 出 了 FPN-ViT 在 各 类 星系 中 的 
最 好 分 类 效果 . 可 以 看 出 除雪 茄 状 星系 外 , 每 个 类 
星系 的 分 类 准确 率 超过 了 98%, 并 且 精 确 率 、 
率 以 及 Fl 分数 也 都 在 97% 以 上 , 而 雪茄 状 星系 的 
各 项 分 类 评价 指标 均 未 超过 90%, 但 是 也 都 在 82 兄 
以 上 . 雪茄 状 星系 的 分 类 效果 不 佳 主 要 是 由 于 
数据 量 过 少 造成 的 . 同时 , 在 5 类 星系 分 类 的 平均 
情况 下 , 准确 率 为 95.2%、 精 确 率 为 95.2%、 召 回 率 
为 95.0%、F1 分 数 为 95.2%, 验证 了 FPN-ViT 模 型 
对 星系 的 形态 分 类 有 着 很 好 的 鲁 棒 性 . 


ill A 


E 


il 


li 
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#1 基于 FPN-ViT 模 型 5 类 星系 中 的 分 类 性 能 


Table 1 Classification performance for 5 classes of galaxies based on the FPN-ViT model 


Class Galaxy Accuracy Precision Recall F1 Score 
0 In-between 98.7% 98.9% 98.5% 98.8% 
1 Completely round 98.4% 98.3% 98.0% 98.1% 
2 Edge-on 98.0% 98.0% 97.6% 97.9% 
3 Spiral 98.3% 98.1% 98.0% 98.1% 
4 Cigar-shape 82.6% 82.9% 82.8% 83.1% 

Average 95.2% 95.2% 95.0% 95.2% 

与 此 同时 , 图 8 采用 接收 者 操作 特征 (Receiver 星系 和 雪茄 状 星系 的 分 类 存在 一 些 错误 , 特别 是 雪 
Operating Characteristic，ROC) 曲 线 并 计算 出 茄 状 星系 的 分 类 表现 较 差 . 雪茄 状 星 系 中 有 7 个 被 
ROC 曲 线 下 面积 (Area Under the Curve, AUC) 错误 地 归 类 为 中 间 星 系 , 12 个 被 错误 地 归 类 为 侧 向 
来 评估 模型 性 能 . 结果 表明 模型 对 每 个 类 别 的 星系 星系 , 还 有 3 个 被 错误 地 归 类 为 旋涡 星系 , 这 可 能 是 
都 有 较 好 的 分 型 效果 , 除数 据 样 本 较 少 的 雪茄 状 因为 雪茄 状 星 系 的 数据 量 较 少 , 模型 在 训练 过 程 中 
星系 的 AUC 值 为 0.975 外 , 每 个 类 别 星系 的 AUC 值 可 能 没有 充分 学 习 到 它们 的 形态 特征 , 导致 分 类 结 
均 在 0.98 以 上 . 图 8 中 , area 表 示 ROC 曲 线 下 的 面积 ， ” 果 不 佳 . 

即 具体 的 AUC 值 . FPN 是 为 了 解决 图 像 识 别 过 程 中 由 于 图 片 大 

图 9 中 展示 了 在 GZ2 数 据 集 上 通过 FPN-ViT 模 小 差异 导致 的 识别 困难 而 提出 的 算法 , 为 了 验证 
型 进行 测试 的 混淆 矩阵. 混淆 矩阵 表示 的 是 一 个 多 FPN 结 构 的 有 效 性 , 我 们 对 GZ2 数 据 集中 的 星系 图 
类 别 分 类 模型 的 性 能 评估 结果 , 在 该 矩阵 中 , 0-4 分 像 进行 了 不 同 程度 的 缩放 . 我 们 通过 调整 scale 参 
别 代表 不 同形 态 的 星系 图 像 . 结果 显示 , 中 间 星 系 数 来 控制 图 像 的 缩放 比例 , 在 实验 中 分 别 设置 了 


同形 星系 的 分 类 准确 3 


和 较 高 , 而 侧 向 星系 、 旋 涡 


0.35、0.5、0.65、0.8 的 scale 值 . 缩放 后 的 星系 图 像 
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如 图 10 所 示 . 对 于 调整 大 小 之 后 的 星系 图 像 , 我 们 See 


使 用 FPN-ViT 模 型 对 其 进行 分 类 , 结果 如 表 2 所 示 . 
实验 结果 显示 , 调整 后 的 GZ2 数 据 集 使 用 FPN-ViT 
模型 对 不 同形 态 的 星系 图 像 进行 分 类 的 平均 准确 
率 均 在 90% 左 右 , 说 明 FPN-ViT 模 型 对 于 不 同 大 
和 分 辩 率 的 星系 图 像 都 有 着 较 好 的 分 类 效果 , 验证 
了 在 ViT 模 型 中 引入 FPN 网 络 结构 的 有 效 性 . 


True Positive Rate 


的 高 斯 噪声 和 椒盐 噪声 , 以 此 来 验证 FPN-ViT 模 型 椒盐 噪声 就 是 给 图 片 添加 黑白 噪点 ,通过 设置 
对 低 信 噪 比 星 系 


À 


1 


True Label 


Receiver operating characteristic 


1.0 f° 


ar eS aE RR 
0.9 $ Predicted Label 
|9 FPN-ViTHSRE APARNA EE 
Fig.9 Confusion matrix for classification of five types of 
si galaxies using FPN-ViT 
A 表 2 不 同 大 小 星系 图 像 的 分 类 结果 对 比 
Table 2 Comparison of classification results for 
galaxy images of different sizes 
ol Model Different scales Accuracy 
Fá ROC curve of class 0 (area = 0.985) 
ROC f class 1 (area = 0.989) = 
六 =m ROC Sane of ee 2 terea = 0.996) scales=0.35 90.2% 
Pi =m ROC curve of class 3 (area = 0.995) 
qm ROC curve of class 4 (area = 0.975) scales=0.50 93.6% 
05 5 0.6 0.7 0.8 0.9 1.0 . 
False Positive Rate FPN-ViT scales=0.65 94.3% 
X -Vi “AN AIBA K 分 类 ‘ 线 
Fig.8 ROC curve of the FPN-ViT model in the scales—1.0 95.2% 
classification of galaxies of different morphologies 
scale=1.0(original) scale=0.80 scale=0.65 scale=0.50 scale=0.35 


图 10 不 同 缩放 程度 的 星系 图 像 示 例 


Fig.10 Examples of galaxy images at different scale levels 


此 外 , 我 们 往 原始 星系 图 像 上 添加 了 不 同 程度 程度 , 在 实验 中 设置 了 分 别 为 5、15、25 的 sigma 值 . 


像 的 泛 化 能 力 . 本 文通 过 调节 高 amount 来 控制 添加 噪声 的 比例 , 实验 中 设置 了 


斯 分 布 标准 差 (sigma) 的 大 小 来 控制 添加 高 斯 噪声 amount 分 别 为 0.05、0.1、0.2. Sigma 和 amount 的 
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值 越 大 添加 的 噪声 越 多 , 图 像 损坏 更 加 严重 . 添加 图 像 如 图 12 所 示 . 对 于 不 同 亮度 的 星系 图 像 使 用 
噪声 后 的 星系 图 像 如 图 11 所 示 , 基于 FPN-ViT 模 型 FPN-ViT 模 型 进行 分 类 的 结果 如 表 4 所 示 , 实验 验 
在 加 入 噪声 的 星系 形态 中 分 类 结果 如 表 3 所 示 . YS 证 了 FPN-ViT 模 型 对 不 同 亮度 的 星系 图 像 分 类 有 
加 噪声 后 的 星系 图 像 与 未 加 噪声 的 星系 图 像 相 比 ， 着 较 好 的 鲁 棒 性 

从 分 类 性 能 的 角度 来 看 , FPN-ViT 模 型 的 整体 分 类 


效果 有 所 下 降 . 然而 , 在 噪声 影响 下 , 模型 的 整体 分 


Z] 


里 低 信 噪 比 星系 
现 出 相当 不 错 的 泛 


化 能 


度 仍 能 保持 在 70% 以 上 , 这 表明 FPN-ViT 模 型 
像 的 分 类 任务 上 表现 稳定 ， 


在 星系 形态 分 类 而 FH, FEAR 


Ds 


像 亮度 的 变化 


与 观测 的 距离 密切 相关 . 由 于 星系 


z 


自 不 同 距 离 下 观 


测 到 的 亮度 会 发 生变 化 , 因此 
可 以 模拟 不 同 
类 算法 对 于 距离 效应 的 鲁 棒 性 . 


使 用 不 同 亮度 
E 离 下 的 星系 观测 ， 
在 实验 中 , 我 们 分 


的 图 像 


A Y 
AS A 


IEA 


7b 


别 设 置 了 0.5、0.75、1.5、2.0 的 亮度 值 
图 像 的 亮度 , 调整 后 的 


=I 
FE F 


来 调整 GZ2 数 据 集中 


(brightness) 


original 


sigma=25 


(a)Gaussian Noise 


添加 不 同类 


图 11 


amount=0.05 


original 


amount=0.2 


amount=0.1 


sigma=50 


(b)Salt-and-pepper Noise 


型 和 程度 噪声 的 星系 图 像 示例 


Fig.11 Examples of galaxy images with different types and 


levels of noise 


表 3 添加 噪声 后 星系 图 像 的 分 类 结果 对 比 


Table 3 Comparison of galaxy image classification results after adding noise 


Model 


Add noise type 


Add noise level 


Accuracy 


FPN-ViT 


Gaussian noise 
Gaussian noise 
Gaussian noise 
Gaussian noise 
Salt-and-pepper noise 
Salt-and-pepper noise 
Salt-and-pepper noise 


Salt-and-pepper noise 


sigma=0 
sigma=5 
sigma=25 
sigma=50 
amount=0 
amount=0.05 
amount=0.1 


amount=0.2 


95.2% 
91.1% 
82.4% 
73.7% 
95.2% 
91.3% 
80.1% 
71.5% 


brightness=1.0(original) 


brightness=0.50 


亮度 的 星系 图 


brightness=0.75 


12 


BARBI 


brightness=1.5 


brightness=2.0 


Fig.12 Example of galaxy images with different brightness 
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表 4 


AE. 


不 同 亮度 星系 图 像 的 分 类 结果 对 比 


Table 4 Comparison of classification results for 


galaxy images of different brightness 


基于 FPN-ViT 的 星系 


EA 


区 态 分 类 和 


完 


减弱 , 同时 噪声 


像 的 信 噪 比 降 低 , 即 图 像 中 的 信号 


号 相对 于 噪声 的 强 


距离 越 远 , 图 像 中 的 天 体 所 接收 到 的 光 信 号 可 能 会 
的 影响 也 会 更 加 显著 . 这 会 


导致 图 


Model Different brightness Accuracy 度 减 弱 . 因 此 ， 观测 距离 的 增加 会 对 图 像 的 信 u 比 
brightness=0.50 89.3% 产生 负面 影响 . 

brightness=0.75 95.3% 因此 , 准确 地 描述 观测 距离 与 图 像 大 小 、 亮 度 

FPN-ViT _ brightness=1.50 94.7% 和 信 噪 比 之 间 的 关系 需要 综合 考虑 多 个 因素 . 于 是 

brightness=2.00 93.1% 我 们 扩展 了 实验 , 通过 距离 参数 (distance 值 ) 来 模 

brightness=1.00 95.2% 拟 真 实 观测 中 的 观测 距离 , 使 得 观测 距离 越 远 , 拍 

摄 得 到 的 星系 图 像 大 小 越 小 , 同时 亮度 越 暗 、 信 

然而 在 实际 的 天 文 观测 中 , 观测 的 距离 与 拍摄 噪 比 越 低 . 在 实验 中 , 我 们 分 别 设置 了 0.5、0.75、 

图 像 大 小 、 亮 度 和 信 噪 比 之 间 存 在 一 些 关 系 . 这 些 ”1.5、2.0 的 distance 值 来 模拟 观测 距离 , 设置 后 的 图 

关系 可 以 归结 为 以 下 几 点 . 像 如 图 13 所 示 . 在 模拟 的 不 同 观测 距离 下 , 我 们 计 

(1) 图 像 大 小 : 一 般 来 说 , 观测 距离 越 远 , 星系 算出 该 距离 下 星系 图 像 的 亮度 和 峰值 信 噪 比 (Peak 

或 天 体 在 图 像 上 所 占 的 角 尺 寸 越 小 . 这 是 由 于 观测 Signal-to-Noise Ratio, PSNR), 峰值 信 噪 比 是 通过 

距离 的 增加 导致 星系 或 天 体 的 视角 缩小 . 因此 , 随 比较 原始 图 像 和 受 噪声 影响 图 像 之 间 的 均 方 根 误 

着 观测 距离 的 增加 , 图 像 中 的 天 体 大 小 会 变 小 ; 差 来 计算 噪声 对 图 像 质 量 的 影响 . 所 以 , 峰值 信 品 

(2) 亮 度 : 观测 距离 与 拍摄 图 像 中 的 天 体 亮度 。 比 越 大 表示 图 像 的 信号 (原始 图 像 ) 与 噪声 (噪声 图 

之 间 的 关系 取决 于 天 体 的 固有 亮度 和 观测 条 件 . 一 像 ) 之 间 的 比值 越 大 , 也 就 是 原始 图 像 与 噪声 图 像 

般 来 说 , 观测 距离 增加 时 , 天 体 的 亮度 会 减弱 . 这 是 之 间 的 差异 越 小 , 因此 噪声 越 小 . 对 于 模拟 的 不 同 

由 于 星系 或 天 体 的 辐射 能 量 在 传播 过 程 中 的 衰减 观测 距离 的 星系 图 像 , 我 们 使 用 FPN-ViT 模 型 进 

效应 . 因此 , 随 着 观测 距离 的 增加 , 拍摄 图 像 中 的 天 行 5 分 类 实验 结果 如 表 5 所 示 . 实验 结果 表明 , FPN- 

体 亮 度 会 降低 ; ViT 模 型 对 于 模拟 的 不 同 观测 距离 下 的 星系 图 像 分 


(3) 信 噪 比 : 观测 


距离 对 信 品 比 也 有 影响 . 观测 


类 准确 率 均 在 75% 以 上 , 有 着 较 好 的 鲁 棒 性 . 


Ry 


distance=0.75 


distance=0.5 


distance=1.0 distance=1.5 


区 


距离 参数 模拟 不 同 观测 距离 的 星系 


像 示 例 


distance=2.0 


Fig.13 Examples of galaxy images simulated with distance parameters for different observation distances 


我 们 将 FPN-ViT 模 型 获得 的 分 类 效果 与 传统 


的 Vision Transformer 模 型 进 4 


了 对 比 , 这 两 项 工作 
所 用 的 数据 来 源 相 同 , 且 训 练 集 和 测试 集 


划分 比 
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例 


致 . 具体 


N 


分 类 结果 对 比 情况 如 表 6 所 示 , 基于 


Transformer 架 构 的 两 种 模型 在 星系 系统 分 类 方面 


都 取得 了 较 高 的 准确 率 . 


并 且 我 们 对 比 了 基础 的 
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ViT 模 型 和 改进 后 的 FPN-ViT 模 型 , 发 现 FPN-ViT 
模型 的 各 个 评价 指标 对 比 VT 模型 都 在 一 定 程度 上 
有 所 提高 . 这 说 明 FPN-ViT 模 型 相 比 于 基础 的 ViT 


模型 , 在 星系 的 形态 分 类 任务 中 有 较 好 的 效果 . 


表 5 不 同 观测 距离 下 星系 图 像 的 各 项 数值 
Table 5 Values of galaxy images at different 


observing distances 


Distance Brightness PSNR Image Size Accuracy 


0.50 49.06 42.37 424 x 424 94.9% 
0.75 38.42 38.25 318 x 318 95.1% 
1.00 28.09 35.33 212 x 212 94.6% 
1.50 26.70 33.39 159 x 159 82.0% 
2.00 25.79 32.40 106 x 106 75.2% 


#6 FPN-ViT 模 型 与 ViT B/16 对 GZ2 的 分 类 结果 对 比 


Table 6 Comparison of classification results of 
FPN-ViT model and ViT B/16 for GZ2 


Model Accuracy Precision Recall F1-Score 


ViT B/1605 94.6% 94.1% 94.2% 94.1% 
FPN-ViT 
(this work) 


95.2% 95.2% 95.0% 95.2% 


4.3 ”分 类 结果 的 可 视 化 


为 了 从 分 类 结果 探索 星系 形态 特征 的 信息 , 我 
们 将 测试 集 的 分 类 结果 进行 可 视 化 . 在 这 个 部 分 ， 
我 们 使 用 的 是 t-SNE 算 法 对 FPN-ViT 模 型 的 分 类 
结果 进行 可 视 化 分 析 . t-SNE 算 法 是 一 种 用 于 多 维 
数据 缩放 的 非 线 性 降 维 算法 R71, 它 可 以 保留 数据 
样本 数据 的 局 部 结构 , 并 获得 与 原始 高 维度 数据 相 
似 度 更 高 的 低 维度 数据 . 由 于 其 在 高 维 数据 缩放 到 
较 低 维 数据 方面 具有 显著 的 效果 , 因此 在 机 器 学 习 
中 应 用 广泛 . t-SNE 算 法 将 数据 点 之 间 的 相似 性 转 
化 为 概率 , 原始 高 维 空间 中 的 相似 性 用 高 斯 分 布 表 


示 . 嵌入 空间 的 概率 用 工分 布 表示 , 从 而 将 高 维 空 


间 的 数据 映射 到 低 维 空间 并 进行 可 视 化 表示 . 


图 14 是 FPN-ViT 模 型 对 星系 形态 分 类 结果 的 
可 视 化 . 从 图 中 可 以 看 出 , 各 类 星系 的 簇 都 有 着 较 
为 清晰 明确 的 界限 , 这 表明 了 FPN-ViT 模 型 对 于 星 


系 形态 分 类 的 效果 较 好 . 而 侧 向 星系 和 雪茄 状 星系 
的 边界 有 极 小 部 分 相连 在 了 一 起 , 是 因为 这 两 类 星 
系数 据 样本 较 少 , 且 形 状 较为 相似 , 所 以 导致 了 这 


两 类 星系 的 部 分 图 像 被 错误 分 类 . 


图 14 FPN-ViT 分 类 结果 可 视 化 


Fig.14 Visualization of FPN-ViT classification results 


5 ”总 结 和 展望 

随 着 巡天 项 目的 不 断 深 入 、 天 文 观测 范围 的 
扩大 和 观测 技术 的 提升 , 巡天 项 目 产生 的 天 文 数据 
规模 不 断 增 大 , 传统 的 数据 处 理 方法 将 无 法 满足 大 
规模 数据 的 处 理 需 求 . 本 文 鉴 于 深度 学 习 在 天 文 数 
据 中 广泛 应 用 和 Transformer 方 法 在 NLP 领域 获得 
的 巨大 成 功 , 将 FPN-ViT 模 型 应 用 于 星系 形态 的 分 
类 研究 . 

其 中 基于 Transformer 的 分 类 模型 在 星系 形态 
分 类 上 都 获得 了 较 高 的 准确 率 , 在 FPN-ViT 模 型 中 
整体 平均 准确 率 为 95.2%, 平均 精确 率 为 95.2%、 平 
均 召 回 率 为 95.0%、 平 均 F1 分 数 为 95.2%. 相对 于 
基于 CNN 的 分 类 模型 有 了 一 定 程度 的 提升 , 证 明了 
基于 Transformer 的 分 类 模型 可 以 应 用 于 星系 的 形 
态 分 类 中 . 同时 , FPN-ViT 对 于 低 信 噪 比 星系 图 像 
的 分 类 准确 率 均 在 70% 以 上 , 说 明 该 模型 对 于 低 信 
噪 比 星系 图 像 也 有 着 较 好 的 泛 化 能 力 . 此 外 , 本 工 
作 中 还 使 用 t-SNE 算 法 对 模型 的 分 类 结果 进行 可 视 
化 , 可 以 更 加 直观 地 看 出 FPN-ViT 模 型 对 于 星系 玫 
态 分 类 的 效果 . 


| 
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在 未 来 , 中 国 空间 站 望远镜 (China Space S- 


tation Telescope，CSST) 和 大 型 综合 巡天 望远镜 
(Large Synoptic Survey Telescope, LSST) 等 大 型 
望远镜 计划 在 几 年 内 发 射 , 它们 将 为 天 文学 研究 提 


各 
He, 


TE a OL US FE 
的 FPN-ViT 模 型 对 后 续 数据 分 析 提 供 


和 更 详细 的 天 文 数据 . 本 文采 
了 更 多 可 
这 意味 着 该 模型 可 以 应 用 于 更 广泛 的 天 文 数据 


FAR 


W 


Ae W N =e 


继续 对 FPN-ViT 模 型 进行 探索 和 顾 
型 对 非 本 文 所 述 形态 的 
时 还 将 会 重 
态 分 类 效果 的 影响 , 进 


分 类 


不 仅 局 限于 本 文 提 到 的 GZ2 数 据 集 . 我 们 将 会 
究 , 并 将 用 该 模 
星系 图 像 进行 分 类 研究 , 同 
究 FPN-ViT 模 型 中 网 络 结构 对 形 
步 验 证 该 模型 在 星系 形态 


点 丰 


aN 


中 的 有 效 性 . 
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Classification of Galaxy Morphology Based on FPN-ViT Model 


CAO Jiet XU Ting-ting! DENG Yu-he! LI Guang-ping! GAO Xian-junl YANG Ming-cun! 
LIU Zhijing! ZHOU Wei-hong!? 


(1 School of Mathematics and Computer Science, Yunnan Minzu University, Kunming 650504) 
(2 Key Laboratory of the Structure and Evolution of Celestial Objects, Chinese Academy of Sciences, Kunming 650011) 


Asstract With the development of artificial intelligence technology, the research of galaxy morphol- 
ogy classification using deep learning methods has made great progress, but there are still shortcomings 
in classification accuracy, automation and spatial characteristics representation of galaxies. The Vision 
Transformer model has good robustness in galaxy morphology classification, but has limitations in han- 
dling multi-scale images. In this paper, we propose to introduce the Feature Pyramid Networks (FPN) 
into the Vision Transformer (ViT) model to classify galaxies. The results show that the average accuracy, 
precision, recall, and F1-score of the FPN-ViT model are above 95%, and the indexes are improved com- 
pared with the traditional ViT model. Meanwhile, we add different levels of Gaussian noise and pretzel 
noise to the original galaxy images to verify that the FPN-ViT model can obtain better classification 
performance for low signal-to-noise ratio data. In addition, to evaluate the model comprehensively, the 
t-distributed Stochastic Neighbor Embedding (t-SNE) algorithm is used to visualize and analyze the clas- 
sification results, which can show the effect of FPN-ViT model on galaxy morphology classification more 
directly. The application of FPN network to the classification of galaxy morphology by ViT model is a 
new attempt, which is of great importance for the subsequent research. 


Key words methods: data analysis, techniques: image processing, galaxy: general 
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